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(57) Abstract: The invention relates to a voice recognition method with automatic correction in voice recognition systems with 
limited syntax. The inventive method comprises a word treatment stage (13) delivering a signal in a compressed form; a pattern 
recognition stage (14) in order to search for a phrase of a syntax which is the closest to said signal in compressed form on the basis of 
a syntax (SYNT1) formed by a set of phrases representing all possible paths between a set of words which were pre-recorded during 
a prior phase; storing (16) said signal in a compressed form; generating (17) a new syntax (SYNT2) wherein the path corresponding 
to the phrase determined during the previous recognition stage is prohibited; reiteration of the pattern recognition phase in order to 
search for another phrase which is closer to the stored signal on the basis of said new syntax. 
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(57) Abrcge : La presente invention concerne un precede de reconnaissance vocale avec correction automatique dans les systemes 
de reconnaissance vocale a syntaxe contrainte. H comprend notamment une £tape (13) de traitement dudit signal de parole deiivrant 
un signal sous une forme compressee, une £tape (14) de reconnaissance de formes pour rechercher, a partir d'une syntaxe (SYNT1) 
formee d'un ensemble de phrases qui representent V ensemble des chemins possibles entire un ensemble de mots preenregistre" lors 
d'une phase prealable, une phase de ladite syntaxe la plus proche dudit signal sous sa forme compressee, la memorisation (16) du 
signal sous sa forme compressee, la generation (17) d'une nouvelle syntaxe (SYNT2) dans laquellc le chemin correspondant a ladite 
phrase determined lors de 1'ltape de reconnaissance anterieure est interdit, la reiteration de l'etape de reconnaissance de formes pour 
rechercher, a partir de la nouvelle syntaxe, une autre phrase la plus proche dudit signal memorise. 
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Procede de reconnaissance vocale avec correction automatique 

La presente invention concerne un procede de reconnaissance 
vocale avec correction automatique dans les systemes de reconnaissance 
5 vocale a syntaxe contrainte, c'est-a-dire que les phrases reconnaissables se 
trouvent dans un ensemble de possibilites determines. Ce procede est 
particulierement adapts a la reconnaissance vocale en milieu bruite, par 
exemple dans les cockpits d'avions d'arme ou civil, dans les h^licopteres ou 
dans Pautomobile. 

10 De nombreux travaux dans le domaine de la reconnaissance 

vocale k syntaxe contrainte ont permis d'obtenir des taux de reconnaissance 
de Pordre de 95%, et ce, m§me dans Penvironnement bruite d'un cockpit 
d'avion d'arme (environ 100-110 dBA autour du casque du pilote). 
Cependant, cette performance n'est pas suffisante pour faire de la 

15 commande vocale un m§dia de commande primaire pour des parametres 
critiques du point de vue de la security de vol. 

Une strategie utilisee consiste k soumettre les commandes 
critiques k une validation du pilote, qui verifie par la phrase reconnue, que les 
bonnes valeurs vont etre affectees aux bons parametres (« feedback 

20 primaire »). En cas d'erreur du systeme de reconnaissance - ou erreur de 
prononciation du pilote - le pilote doit 6noncer k nouveau toute la phrase, et 
la probability d'erreur sur la reconnaissance de la phrase a nouveau 
prononcee est la meme. Ainsi par exemple, si le pilote enonce « Select 
altitude two five five zero feet », le systeme effectue les algorithmes de 

25 reconnaissance et donne un retour visuel au pilote. En envisageant le cas ou 
une erreur se produit, le systeme va par exemple proposer « SEL ALT 2 5 9 
0 FT ». Dans un systeme classique, le pilote doit alors prononcer de nouveau 
toute la phrase, avec les memes probability d'erreur. 

Un systeme de correction d'erreur meilleur en terme de taux de 

30 reconnaissance consiste a faire prononcer au pilote une phrase de correction 
qui sera reconnue comme telle. Par exemple, si Ton reprend Texemple 
precedent, le pilote pourra prononcer « Correction third digit five ». 
Cependant cette methode augmente la charge de travail du pilote dans le 
proc6de de reconnaissance, ce qui n'est pas souhaitable. 

35 L'invention propose un procede de reconnaissance vocale qui met 

en oeuvre une correction automatique de la phrase prononcee permettant 
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d'obtenir un taux de reconnaissance proche de 100%, sans augmentation de 
la charge du pilote. 

Pour cela, (Invention concerne un proc&te de reconnaissance 
vocale d'un signal de parole prononce par un locuteur avec correction 

5 automatique, comprenant notamment une etape de traitement dudit signal de 
parole delivrant un signal sous une forme compressee, une etape de 
reconnaissance de formes pour rechercher, a partir d'une syntaxe form6e 
d'un ensemble de phrases qui represented I'ensemble des chemins 
possibles entre un ensemble de mots preenregistre lors d'une phase 

10 prealable, une phrase de ladite syntaxe la plus proche dudit signal sous sa 
forme compressee, et caracterise en ce qu'il comprend 

- la memorisation (1 6) du signal sous sa forme compressee, 

- la generation (17) d'une nouvelle syntaxe (SYNT2) dans 
laquelle le chemin correspondant a ladite phrase determinee 

15 lors de I'etape de reconnaissance anterieure est interdit, 

- la reiteration de Tetape de reconnaissance de formes pour 
rechercher, a partir de la nouvelle syntaxe, une autre phrase la 
plus proche dudit signal memorise. 

D'autres avantages et caracteristiques apparaitront plus 
20 clairement a la lecture de la description qui suit, illustree par les figures 
annexees qui represented : 

- la figure 1, le schema de principe d'un systeme de 
reconnaissance vocale de type connu; 

- la figure 2, le schema d'un systeme de reconnaissance vocale 
25 du type de celui de la figure 1 mettant en oeuvre le proc6de 

selon Tinvention ; 

- la figure 3, un schema illustrant la modification de la syntaxe 
dans le precede selon Tinvention. 

Sur ces figures, les elements identiques sont references par les 
30 memes reperes. 

La figure 1 pr^sente le schema de principe d'un systeme de 
reconnaissance vocale h syntaxe contrainte de type connu, par exemple un 
systeme embarque dans un environnement fortement bruits. Dans un 
systeme a syntaxe contrainte mono locuteur, une phase d'apprentissage 
35 hors temps reel permet a un locuteur donne d'enregistrer un ensemble de 
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references acoustiques (mots) stockes dans un espace de references 10. La 
syntaxe 1 1 est formee d'un ensemble de phrases qui represented 
Pensemble des chemins ou transitions possibles entre les differents mots. 
Typiquement, quelques 300 mots sont enregistres dans Pespace de 

5 reference qui torment typiquement 400 000 phrases possibles de la syntaxe. 

Classiquement, un systeme de reconnaissance vocale comporte 
au moins trois blocs comme illustre sur la figure 1. II comporte un bloc 12 
^acquisition du signal de parole (ou prise de son), un bloc 13 de traitement 
du signal et un bloc 14 de reconnaissance de formes. Une description 

10 detaillee de Pensemble de ces blocs selon un mode de realisation se trouve 
par exemple dans la demande de brevet frangais FR 2 808 917 au nom de la 
deposante. 

De fagon connue, le signal acoustique traits par le bloc de prise de 
son 12 est un signal de parole capte par un transducteur electroacoustique. 

15 Ce signal est numerise par 6chantillonnage et decoupe en un certain nombre 
de trames recouvrantes ou non, de meme duree ou non. Dans le bloc 13 de 
traitement du signal, on associe classiquement chaque trame a un vecteur 
de parametres qui traduit Pinformation acoustique contenue dans la trame. II 
y a plusieurs methodes pour determiner un vecteur de parametres. Un 

20 exemple classique de methode est celle qui utilise les coefficients cepstraux 
de type MFCC (abreviation de Pexpression anglo-saxonne « Mel Frequency 
Cepstral Coefficient »). Le bloc 13 permet de determiner dans un premier 
temps Penergie spectrale de chaque trame dans un certain nombre de 
canaux frequentiels ou fen§tres. II deiivre pour chacune des trames une 

25 valeur d'energie spectrale ou coefficient spectral par canal frequentiel. II 
effectue ensuite une compression des coefficients spectraux obtenus pour 
tenir compte du comportement du systeme auditif humain. II effectue enfin 
une transformation des coefficients spectraux compresses, ces coefficients 
spectraux compresses transformes sont les parametres du vecteur de 

30 parametres recherche. 

Le bloc 14 de reconnaissance de formes est relie h Pespace de 
references 10. II compare la serie des vecteurs de parametres issue du bloc 
de traitement du signal aux references obtenues lors de la phase 
d'apprentissage, ces references traduisant les empreintes acoustiques de 

35 chaque mot, chaque phoneme, plus generalement de chaque commande et 
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que Ton appellera de fa?on generique « phrase » dans la suite de la 
description. Puisque la reconnaissance de formes s'effectue par 
comparison entre vecteurs de param&res, on doit avoir a disposition ces 
vecteurs de parametres de base. On les obtient de la mdme manfere que 

5 pour les trames de signal utile, en calculant pour chaque trame de base son 
energie spectrale dans un certain nombre de canaux frequentiels et en 
utilisant des fenetres de pond§ration identiques. 

A Tissue de la derniere trame, ce qui correspond generalement a la fin 
d'une commande, la comparaison donne soit une distance entre la 

10 commande testae et des commandes de reference, la commande de 
reference pr§sentant la distance la plus faible est reconnue, soit une 
probability pour que la serie des vecteurs de parametres appartiennent h une 
suite de phonemes. Les algorithmes classiquement utilises pendant la phase 
de reconnaissance de formes sont dans le premier cas de type DTW 

15 (abr£viation de Pexpression anglo-saxonne pour Dynamic Time Warping) ou, 
dans le second cas de type HMM (abreviation de Pexpression anglo-saxonne 
Hidden Markov Models). Dans le cas d'un algorithme de type HMM, les 
references sont des fonctions gaussiennes assoctees chacune a un 
phoneme et non h des series de vecteurs de parametres. Ces fonctions 

20 gaussiennes sont caracterisees par leur centre et leur ecart-type. Ce centre 
et cet 6cart type dependent des parametres de toutes les trames du 
phoneme, c'est a dire des coefficients spectraux compresses de toutes les 
trames du phoneme. 

Les signaux numeriques repr6sentant une phase reconnue sont 

25 transmis a un dispositif 15 qui realise le couplage avec Penvironnement, par 
exemple par affichage de la phrase reconnue sur le viseur tete haute d'un 
cockpit d'avion. 

Comme cela a 6t6 precedemment explique, pour les commandes 
critiques, le pilote peut avoir a sa disposition un bouton de validation 
30 permettant Tex6cution de la commande. Dans le cas od la phrase reconnue 
serait erron6e, il doit generalement repeter la phrase avec une probability 
identique d'erreur. 

Le procSde selon Pinvention permet une correction automatique 
de grande efficacite et simple a mettre en ceuvre. Son implantation dans un 
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systeme de reconnaissance vocale du type de la figure 1 est schematise 
sur la figure 2. 

Selon Pinvention, a Fissu de la phase de traitement du signal 13, 
on memorise (6tape 16) le signal de parole sous sa forme compressee 

5 (ensemble des vecteurs de param&tres egalement appeles « cepstres »). 
D£s qu'une phrase est reconnue, on g6n§re une nouvelle syntaxe (6tape 17) 
dans laquelle la phrase reconnue n'est plus un chemin possible de la 
syntaxe. On reitere alors la phase de reconnaissance de formes avec le 
signal memorise mais sur la nouvelle syntaxe. Preferentiellement, la 

10 reconnaissance de formes est reiteree de maniere systematique pour 
preparer une autre solution possible. Si le pilote detecte une erreur dans la 
commande reconnue, il appuie par exemple sur un bouton specifique de 
correction, ou exerce un appui court ou un double die sur Talternat de 
commande vocale et le systeme lui propose la nouvelle solution trouv^e lors 

15 de la reiteration de la reconnaissance de formes. On rSitere les etapes 
pr§cedentes pour g§n6rer de nouvelles syntaxes qui interdisent toutes les 
solutions precedemment trouvees. Quand le pilote voit la solution qui 
correspond r6ellement h la phrase 6nonc6e, il valide par un moyen 
quelconque (bouton, voix, etc.). 

20 Reprenons I'exemple cite precedemment en tirant benefice de 

Tinvention. Le pilote enonce selon cet exemple « Select altitude two five five 
zero feet ». Le systeme effectue les algorithmes de reconnaissance et, par 
exemple & cause du bruit ambiant, reconnalt « Select altitude two five nine 
zero feet ». Un feedback visuel est donne au pilote : « SEL ALT 2 5 9 0 FT ». 

25 Alors que le locuteur est en train de lire la phrase reconnue, le systeme 
anticipe une eventuelle erreur en g6n6rant de fagon automatique une 
nouvelle syntaxe dans laquelle la phrase reconnue est supprimee et en 
reiterant Tetape de reconnaissance de formes. 

La figure 3 illustre par un schema simple, dans le cas de Pexemple 

30 precedent, la modification de la syntaxe permettant avec un algorithme de 
reconnaissance de formes de type DTW la recherche d'une nouvelle phrase. 
La phrase enoncee par le locuteur selon I'exemple precedente est « SEL 
ALT 2 5 5 0 FT ». Nous supposons que la phrase reconnue par la premiere 
phase de reconnaissance de formes est « SEL ALT 2 5 9 0 FT». Cette 

35 premiere phase fait appelle a la syntaxe d'origine SYNT1, dans laquelle 
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toutes les combinaisons (ou chemins) sont possibles pour les quatre chiffres 
a reconnaTtre. Lors d'une deuxieme phase de reconnaissance de formes, la 
phrase reconnue est ecartee des combinaisons possibles, modifiant ainsi 
Tarbre syntaxique comme cela est illustre sur la figure 3, Une nouvelle 

5 syntaxe est g6n§ree qui interdit le chemin correspondant a la solution 
reconnue. Une deuxieme phase est alors reconnue. La phase de 
reconnaissance de formes peut etre reiteree avec, a chaque fois, generation 
d'une nouvelle syntaxe qui reprend la syntaxe precedente mais dans laquelle 
est supprim^e la phrase precedemment trouvee. 

10 Ainsi, la nouvelle syntaxe est obtenue par reorganisation de la 

syntaxe anterieure de telle sorte h particulariser le chemin correspondant k la 
phrase determinee lors de P6tape de reconnaissance anterieure, puis en 
6liminant ce chemin. Cette reorganisation est faite par exemple en 
parcourant la syntaxe anterieure en fonction des mots de la phrase 

15 prelablement reconnue et en formant au fil de ce parcours le chemin 
specif ique a cette phrase. 

Dans un mode de fonctionnement possible, le pilote indique au 
sysfeme qu'il desire une correction (par exemple par un appui court de 
Talternat commande vocale) et des qu'une nouvelle solution est disponible, 

20 elle est affichee. La recherche automatique d'une nouvelle phrase s'arrete 
par exemple lorsqu'une phrase reconnue est validee par le pilote. Dans notre 
exemple, il est probable que des la deuxieme phase de reconnaissance de 
formes, le pilote voit « SEL ALT 2 5 5 0 FT ». II peut alors valider la 
commande. Dans la mesure ou de nombreuses erreurs de reconnaissance 

25 sont dues a des confusions entre des mots proches (par exemple, five-nine), 
Tinvention permet de corriger presque k coup sur ces erreurs avec un 
minimum de charge de travail supplementaire pour le pilote et de fagon tres 
rapide du fait de ['anticipation sur la correction que peut effectuer le procede 
selon Tinvention. 

30 En outre, en g6n£rant une nouvelle syntaxe et en reiterant Tetape 

de reconnaissance de formes sur la nouvelle syntaxe, on n'accroft pas la 
complexity de Tarbre syntaxique. L'algorithme de traitement peut done 
effectuer la reconnaissance avec un delai similaire a chaque iteration, ce 
d6lai etant imperceptible pour le pilote du fait de Tanticipation de la 

35 correction. 
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REVENDICATIONS 

5 1- Procede de reconnaissance vocale d'un signal de parole 

prononce par un locuteur avec correction automatique, comprenant 
notamment une etape (13) de traitement dudit signal de parole deiivrant un 
signal sous une forme compressee, une etape (14) de reconnaissance de 
formes pour rechercher, a partir d'une syntaxe (SYNT1) formee d'un 

10 ensemble de phrases qui represented I'ensemble des chemins possibles 
entre un ensemble de mots preenregistre lors d'une phase prealable, une 
phrase de ladite syntaxe la plus proche dudit signal sous sa forme 
compressee, et caracterise en ce qu'il comprend 

- la memorisation (16) du signal sous sa forme compressee, 

15 - la generation (17) d'une nouvelle syntaxe (SYNT2) dans 

laquelle le chemin correspondant k ladite phrase d£terminee 
lors de Tetape de reconnaissance anterieure est interdit, 

- la reiteration de I'etape de reconnaissance de formes pour 
rechercher, k partir de la nouvelle syntaxe, une autre phrase la 

20 plus proche dudit signal memorise. 

2- Procede de reconnaissance vocale selon la revendication 1, 
dans lequel la nouvelle syntaxe est obtenue par reorganisation de la syntaxe 
anterieure de telle sorte a particulariser ledit chemin correspondant a la 
phrase determinee lors de retape de reconnaissance anterieure, puis 

25 elimination de ce chemin. 

3- Procede de reconnaissance vocale selon la revendication 2, 
dans lequel ladite reorganisation est faite en parcourant la syntaxe anterieure 
en fonction des mots de ladite phrase et formation au fil de ce parcours du 
chemin specifique a ladite phrase. 

30 4- Procede de reconnaissance vocale selon Tune des 

revendications precedentes, caracterise en ce que la recherche d'une 
nouvelle phrase est reiteree de fagon systematique pour anticiper la 
correction. 
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5- Proceed de reconnaissance vocale selon la revendication 4, 
caracterise en ce que chaque nouvelle phrase reconnue est proposee au 
locuteur sur sa demande. 

6- Proced6 de reconnaissance vocale selon Tune des 
5 revendications 4 ou 5, caracteris6 en ce que la recherche d'une nouvelle 

phrase est stoppee par validation d'une phrase reconnue par le locuteur. 

7- Proc6d§ de reconnaissance vocale selon Tune des 
revendications prec^dentes, caracterise en ce que I'etape (13) de traitement 
comprend : 

10 - une etape de numerisation et de decoupage en une suite de 

trames temporelles dudit signal acoustique, 
- une phase de parametrisation de trames temporelles 
contenant de la parole de maniere k obtenir, par trame, un 
vecteur de parametres dans le domaine fr6quentiel, Pensemble 

15 de ces vecteurs de parametres formant ledit signal sous sa 

forme compressee. 

8- Precede de reconnaissance vocale selon la revendication 7, 
caracterise en ce que la reconnaissance de forme fait appel a un algorithme 
de type DTW. 

20 9- Proc6d£ de reconnaissance vocale selon la revendication 7, 

caracterise en ce que la reconnaissance de forme fait appel a un algorithme 
de type HMM. 
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